22. rujna 2025.Hrvatski

Ovladajte umjetnošću stvaranja Pandas DataFramea. Ovaj vodič pokriva inicijalizaciju DataFramea iz rječnika, lista, NumPy nizova i više za globalne podatkovne profesionalce.

Stvaranje Pandas DataFrame: Duboko uranjanje u inicijalizaciju strukture podataka

Dobrodošli u svijet manipulacije podacima s Pythonom! U srcu gotovo svakog zadatka analize podataka leži biblioteka Pandas, a njezin kamen temeljac je DataFrame. Zamislite DataFrame kao pametnu, moćnu i fleksibilnu verziju proračunske tablice ili tablice baze podataka, koja živi unutar vašeg Python okruženja. To je primarni alat za čišćenje, transformiranje, analiziranje i vizualizaciju podataka. Ali prije nego što možete izvesti bilo koju od ovih podatkovnih magija, prvo morate savladati umjetnost stvaranja DataFramea. Način na koji inicijalizirate ovu temeljnu strukturu podataka može postaviti temelje za cijelu vašu analizu.

Ovaj sveobuhvatni vodič osmišljen je za globalnu publiku ambicioznih i praktičnih podatkovnih analitičara, znanstvenika i inženjera. Istražit ćemo najčešće i najmoćnije metode za stvaranje Pandas DataFramea od nule. Bez obzira jesu li vaši podaci u rječniku, listi, NumPy nizu ili drugom formatu, ovaj će vam članak pružiti znanje i praktične primjere za inicijalizaciju vaših DataFramea s povjerenjem i učinkovitošću. Izgradimo naš temelj.

Što je točno Pandas DataFrame?

Prije nego što počnemo graditi, razjasnimo što konstruiramo. Pandas DataFrame je dvodimenzionalna, veličinom promjenjiva i potencijalno heterogena tabelarna struktura podataka. Razložimo to:

Dvodimenzionalna: Ima retke i stupce, baš kao i proračunska tablica.
Veličinom promjenjiva: Možete dodavati ili uklanjati retke i stupce nakon što je DataFrame stvoren.
Heterogena: Stupci mogu imati različite tipove podataka. Na primjer, jedan stupac može sadržavati brojeve (cijele ili decimalne), drugi može sadržavati tekst (nizove), a treći može sadržavati datume ili booleove vrijednosti (True/False).

DataFrame ima tri glavne komponente:

Podaci: Stvarne vrijednosti sadržane unutar strukture, organizirane u retke i stupce.
Indeks: Oznake za retke. Ako ne navedete indeks, Pandas stvara zadani, počevši od 0. Indeks pruža moćan način pristupa i poravnavanja podataka.
Stupci: Oznake za stupce. Oni su ključni za pristup određenim serijama podataka unutar DataFramea.

Razumijevanje ove strukture ključno je za razumijevanje kako učinkovito stvarati i manipulirati DataFrameovima.

Temelj: Uvoz Pandasa

Prvo i najvažnije. Da biste koristili Pandas, morate uvesti biblioteku u svoju Python skriptu ili prijenosno računalo. Univerzalno prihvaćena konvencija, koju slijede profesionalci diljem svijeta, je uvoz s aliasom pd. Ovaj jednostavni alias čini vaš kod čitljivijim i sažetijim.

import pandas as pd
import numpy as np # Često se koristi uz Pandas, pa ćemo ga i mi uvesti.

S ovom jednom linijom otključali ste punu moć biblioteke Pandas. Sada, prijeđimo na srž ovog vodiča: stvaranje DataFrameova.

Osnovne metode stvaranja: Od jednostavnih do složenih

Konstruktor pd.DataFrame() je nevjerojatno svestran. Može prihvatiti mnogo različitih vrsta unosa. Sada ćemo istražiti najbitnije metode, krećući se od najčešćih do specijaliziranijih slučajeva.

1. Stvaranje DataFramea iz rječnika lista ili nizova

Ovo je vjerojatno najčešća i intuitivna metoda za stvaranje DataFramea. Počinjete s Python rječnikom gdje će ključevi postati nazivi stupaca, a vrijednosti će biti liste (ili NumPy nizovi ili Pandas Series) koje sadrže podatke za svaki stupac.

Kako radi: Pandas mapira svaki ključ rječnika na zaglavlje stupca, a svaki popis vrijednosti na retke tog stupca. Ovdje je kritičan zahtjev da sve liste moraju imati istu duljinu, jer svaka lista predstavlja cijeli stupac podataka.

Primjer:

Napravimo DataFrame koji sadrži informacije o različitim gradovima diljem svijeta.

# Podaci organizirani po stupcima city_data = { 'City': ['Tokyo', 'Delhi', 'Shanghai', 'São Paulo', 'Mumbai'], 'Country': ['Japan', 'India', 'China', 'Brazil', 'India'], 'Population_Millions': [37.3, 32.0, 28.5, 22.4, 20.9], 'Is_Coastal': [True, False, True, False, True] } # Stvaranje DataFramea df_from_dict = pd.DataFrame(city_data) print(df_from_dict)

Izlaz:

         City Country  Population_Millions  Is_Coastal
0       Tokyo   Japan                 37.3        True
1       Delhi   India                 32.0       False
2    Shanghai   China                 28.5        True
3   São Paulo  Brazil                 22.4       False
4      Mumbai   India                 20.9        True

Ključna stvar: Ova metoda je savršena kada su vaši podaci prirodno organizirani po značajci ili kategoriji. Čista je, čitljiva i izravno prevodi strukturu vašeg rječnika u tabelarni format.

2. Stvaranje DataFramea iz popisa rječnika

Alternativna i jednako moćna metoda je korištenje popisa gdje je svaki element rječnik. U ovoj strukturi svaki rječnik predstavlja jedan redak, a njegovi ključevi predstavljaju nazive stupaca za podatke tog retka.

Kako radi: Pandas iterira kroz listu. Za svaki rječnik stvara novi redak. Ključevi rječnika koriste se za određivanje stupaca. Ova je metoda nevjerojatno fleksibilna jer ako rječniku nedostaje ključ, Pandas će automatski ispuniti tu ćeliju u odgovarajućem retku s NaN (Not a Number), što je standardni marker za nedostajuće podatke u Pandasu.

Primjer:

Predstavimo iste podatke o gradu, ali ovaj put strukturirane kao popis zapisa.

# Podaci organizirani po retku (zapisu) records_data = [ {'City': 'Tokyo', 'Country': 'Japan', 'Population_Millions': 37.3, 'Is_Coastal': True}, {'City': 'Delhi', 'Country': 'India', 'Population_Millions': 32.0, 'Is_Coastal': False}, {'City': 'Shanghai', 'Country': 'China', 'Population_Millions': 28.5}, {'City': 'São Paulo', 'Country': 'Brazil', 'Population_Millions': 22.4, 'Is_Coastal': False}, {'City': 'Cairo', 'Country': 'Egypt', 'Timezone': 'EET'} # Obratite pažnju na drugačiju strukturu ] # Stvaranje DataFramea df_from_list_of_dicts = pd.DataFrame(records_data) print(df_from_list_of_dicts)

Izlaz:

         City Country  Population_Millions  Is_Coastal Timezone
0       Tokyo   Japan                 37.3        True      NaN
1       Delhi   India                 32.0       False      NaN
2    Shanghai   China                 28.5         NaN      NaN
3   São Paulo  Brazil                 22.4       False      NaN
4       Cairo   Egypt                  NaN         NaN      EET

Primijetite kako je Pandas elegantno postupio s nedosljednostima. Vrijednost 'Is_Coastal' za Shanghai je NaN jer je nedostajala u njegovom rječniku. Za Kairo je stvoren novi stupac 'Timezone', s NaN za sve ostale gradove. To ga čini izvrsnim izborom za rad s polustrukturiranim podacima, kao što su JSON odgovori s API-ja.

Ključna stvar: Koristite ovu metodu kada vaši podaci dolaze kao niz zapisa ili opažanja. Robusna je u obradi nedostajućih podataka i varijacija u strukturi zapisa.

3. Stvaranje DataFramea iz NumPy niza

Za one koji rade u znanstvenom računarstvu, strojnom učenju ili bilo kojem području koje uključuje teške numeričke operacije, podaci često potječu iz NumPy nizova. Pandas je izgrađen na vrhu NumPy, čineći integraciju između njih besprijekornom i vrlo učinkovitom.

Kako radi: Prosljeđujete 2D NumPy niz konstruktoru pd.DataFrame(). Prema zadanim postavkama, Pandas će stvoriti indekse i stupce temeljene na cijelim brojevima. Međutim, možete (i trebali biste) pružiti smislene oznake pomoću parametara index i columns.

Primjer:

Napravimo DataFrame iz nasumično generiranog 5x4 NumPy niza, koji predstavlja očitanja senzora tijekom vremena.

# Stvaranje 5x4 NumPy niza s nasumičnim podacima data_np = np.random.rand(5, 4) # Definiranje oznaka stupaca i indeksa columns = ['Sensor_A', 'Sensor_B', 'Sensor_C', 'Sensor_D'] index = pd.to_datetime(['2023-10-27 10:00', '2023-10-27 10:01', '2023-10-27 10:02', '2023-10-27 10:03', '2023-10-27 10:04']) # Stvaranje DataFramea df_from_numpy = pd.DataFrame(data=data_np, index=index, columns=columns) print(df_from_numpy)

Izlaz (vaši će se nasumični brojevi razlikovati):

                           Sensor_A  Sensor_B  Sensor_C  Sensor_D
2023-10-27 10:00:00  0.123456  0.987654  0.555555  0.111111
2023-10-27 10:01:00  0.234567  0.876543  0.666666  0.222222
2023-10-27 10:02:00  0.345678  0.765432  0.777777  0.333333
2023-10-27 10:03:00  0.456789  0.654321  0.888888  0.444444
2023-10-27 10:04:00  0.567890  0.543210  0.999999  0.555555

U ovom smo primjeru također uveli moćnu značajku: korištenje DatetimeIndex za podatke vremenskih serija, što otključava ogroman niz mogućnosti analize temeljene na vremenu u Pandasu.

Ključna stvar: Ovo je najučinkovitija metoda pamćenja za stvaranje DataFramea iz homogenih numeričkih podataka. To je standardni izbor pri povezivanju s bibliotekama kao što su NumPy, Scikit-learn ili TensorFlow.

4. Stvaranje DataFramea iz popisa lista

Ova je metoda konceptualno slična stvaranju iz NumPy niza, ali koristi standardne Python liste. To je jednostavan način za pretvaranje tabelarnih podataka pohranjenih u formatu ugniježđene liste.

Kako radi: Osiguravate popis gdje svaka unutarnja lista predstavlja redak podataka. Kao i kod NumPy nizova, preporuča se specificirati nazive stupaca putem parametra columns radi jasnoće.

Primjer:

# Podaci kao popis redaka product_data = [ ['P001', 'Laptop', 1200.00, 'Electronics'], ['P002', 'Mouse', 25.50, 'Electronics'], ['P003', 'Desk Chair', 150.75, 'Furniture'], ['P004', 'Keyboard', 75.00, 'Electronics'] ] # Definiranje naziva stupaca column_names = ['ProductID', 'ProductName', 'Price_USD', 'Category'] # Stvaranje DataFramea df_from_list_of_lists = pd.DataFrame(product_data, columns=column_names) print(df_from_list_of_lists)

Izlaz:

  ProductID ProductName  Price_USD     Category
0      P001      Laptop    1200.00  Electronics
1      P002       Mouse      25.50  Electronics
2      P003  Desk Chair     150.75    Furniture
3      P004    Keyboard      75.00  Electronics

Ključna stvar: Ovo je jednostavna i učinkovita metoda kada su vaši podaci već strukturirani kao popis redaka, na primjer, kada čitate iz formata datoteke koji nema zaglavlja.

Napredna inicijalizacija: Prilagodba vašeg DataFramea

Osim pružanja sirovih podataka, konstruktor pd.DataFrame() nudi nekoliko parametara za kontrolu strukture i svojstava vašeg novog DataFramea od trenutka njegovog stvaranja.

Specificiranje indeksa

Već smo vidjeli parametar `index` na djelu. Indeks je ključni dio DataFramea, pružajući oznake za retke koje se koriste za brzo pretraživanje, poravnavanje podataka i još mnogo toga. Iako Pandas pruža zadani numerički indeks (0, 1, 2, ...), postavljanje smislenog indeksa može učiniti rad s vašim podacima mnogo lakšim.

Primjer: Ponovno upotrijebimo naš primjer rječnika lista, ali postavimo stupac `City` kao indeks prilikom stvaranja.

city_data = { 'Country': ['Japan', 'India', 'China', 'Brazil', 'India'], 'Population_Millions': [37.3, 32.0, 28.5, 22.4, 20.9], 'Is_Coastal': [True, False, True, False, True] } city_names = ['Tokyo', 'Delhi', 'Shanghai', 'São Paulo', 'Mumbai'] # Stvaranje DataFramea s prilagođenim indeksom df_with_index = pd.DataFrame(city_data, index=city_names) print(df_with_index)

Izlaz:

          Country  Population_Millions  Is_Coastal
Tokyo       Japan                 37.3        True
Delhi       India                 32.0       False
Shanghai    China                 28.5        True
São Paulo  Brazil                 22.4       False
Mumbai      India                 20.9        True

Sada možete pristupiti podacima retka pomoću ovih smislenih oznaka, na primjer, s df_with_index.loc['Tokyo'].

Kontrola tipova podataka (`dtype`)

Pandas je prilično dobar u zaključivanju tipova podataka (npr. prepoznavanju brojeva, teksta i booleovih vrijednosti). Međutim, ponekad morate nametnuti određeni tip podataka za stupac kako biste osigurali učinkovitost memorije ili omogućili određene operacije. Parametar `dtype` daje vam ovu kontrolu.

Primjer: Zamislite da imamo ID-ove proizvoda koji izgledaju kao brojevi, ali ih treba tretirati kao tekst (nizove).

data = { 'ProductID': [101, 102, 103], 'Stock': [50, 75, 0] } # Stvaranje DataFramea uz specificiranje dtype za 'ProductID' df_types = pd.DataFrame(data, dtype={'ProductID': str, 'Stock': 'int32'}) print(df_types.dtypes)

Izlaz:

ProductID    object
Stock         int32
dtype: object

Primijetite da je `str` u Pandasu predstavljen kao `object`. Eksplicitnim postavljanjem `dtype` sprječavamo Pandas da tretira `ProductID` kao broj, što bi moglo dovesti do netočnih izračuna ili problema s sortiranjem u budućnosti. Korištenje specifičnijih tipova cijelih brojeva kao što je `int32` umjesto zadanog `int64` također može uštedjeti značajnu memoriju s velikim skupovima podataka.

Praktični scenariji i najbolje prakse

Odabir prave metode stvaranja ovisi o izvornom formatu vaših podataka. Ovdje je jednostavan vodič za odlučivanje:

Jesu li vaši podaci u stupcima (npr. jedan popis po značajki)? Koristite rječnik lista. To je prirodno rješenje.
Jesu li vaši podaci niz zapisa (npr. s JSON API-ja)? Koristite popis rječnika. Ističe se u rukovanju nedostajućim ili dodatnim poljima u zapisima.
Jesu li vaši podaci numerički i u mreži (npr. iz znanstvenog izračuna)? Koristite NumPy niz. To je opcija s najboljim performansama za ovaj slučaj upotrebe.
Jesu li vaši podaci u jednostavnom tabličnom formatu redak po redak bez zaglavlja? Koristite popis lista i zasebno navedite nazive stupaca.

Uobičajene zamke koje treba izbjegavati

Nejednake duljine u rječniku lista: Ovo je uobičajena pogreška. Prilikom stvaranja DataFramea iz rječnika lista, svaki popis mora imati točno isti broj elemenata. Ako ne, Pandas će podići `ValueError`. Uvijek provjerite jesu li vaši podaci stupca jednake duljine prije stvaranja.
Zanemarivanje indeksa: Oslanjanje na zadani indeks temeljen na 0 je u redu za mnoge slučajeve, ali ako vaši podaci imaju prirodni identifikator (kao što je ID proizvoda, ID korisnika ili određeni vremenski žig), postavljanje kao indeksa od početka može pojednostaviti vaš kod kasnije.
Zaboravljanje tipova podataka: Dopuštanje Pandasu da zaključi tipove funkcionira većinu vremena, ali za velike skupove podataka ili stupce s mješovitim tipovima, performanse mogu patiti. Budite proaktivni u postavljanju `dtype` za stupce koje je potrebno tretirati kao kategorije, nizove ili određene numeričke tipove kako biste uštedjeli memoriju i spriječili pogreške.

Osim inicijalizacije: Stvaranje DataFramea iz datoteka

Iako se ovaj vodič usredotočuje na stvaranje DataFramea iz Python objekata u memoriji, ključno je znati da će u većini scenarija iz stvarnog svijeta vaši podaci dolaziti iz vanjske datoteke. Pandas nudi skup visoko optimiziranih funkcija čitanja za tu svrhu, uključujući:

pd.read_csv(): Za datoteke s vrijednostima odvojenim zarezima, radni konj uvoza podataka.
pd.read_excel(): Za čitanje podataka iz proračunskih tablica Microsoft Excela.
pd.read_json(): Za čitanje podataka iz JSON datoteka ili nizova.
pd.read_sql(): Za čitanje rezultata upita baze podataka izravno u DataFrame.
pd.read_parquet(): Za čitanje iz učinkovitog formata datoteke Parquet orijentiranog na stupce.

Ove funkcije su sljedeći logičan korak na vašem putovanju s Pandasom. Njihovo svladavanje omogućit će vam da unesete podatke iz praktički bilo kojeg izvora u moćnu strukturu DataFramea.

Zaključak: Vaš temelj za ovladavanje podacima

Pandas DataFrame je središnja struktura podataka za svaki ozbiljan rad s podacima u Pythonu. Kao što smo vidjeli, Pandas nudi fleksibilan i intuitivan skup alata za inicijalizaciju ovih struktura iz širokog raspona formata. Razumijevanjem kako stvoriti DataFrame iz rječnika, lista i NumPy nizova, izgradili ste solidan temelj za svoje projekte analize podataka.

Ključno je odabrati metodu koja najbolje odgovara izvornoj strukturi vaših podataka. To ne samo da čini vaš kod čišćim i čitljivijim, već i učinkovitijim. Odavde ste spremni prijeći na uzbudljive zadatke čišćenja, istraživanja, transformacije i vizualizacije podataka. Sretno kodiranje!